Nowe „wektory osobowości” firmy Anthropic pozwalają na odczytanie i sterowanie osobowością absolwenta studiów magisterskich

Chcesz otrzymywać mądrzejsze informacje w swojej skrzynce odbiorczej? Zapisz się na nasz cotygodniowy newsletter, aby otrzymywać tylko to, co istotne dla liderów w dziedzinie sztucznej inteligencji, danych i bezpieczeństwa w przedsiębiorstwach. Subskrybuj teraz
Nowe badanie przeprowadzone w ramach programu Anthropic Fellows Program ujawnia technikę identyfikacji, monitorowania i kontrolowania cech charakteru w dużych modelach językowych (LLM). Odkrycia pokazują, że modele mogą rozwijać niepożądane osobowości (np. stając się złośliwe, nadmiernie ugodowe lub skłonne do zmyślania) w odpowiedzi na polecenia użytkownika lub jako niezamierzona konsekwencja szkolenia.
Naukowcy wprowadzają „wektory osobowości”, czyli kierunki w wewnętrznej przestrzeni aktywacji modelu odpowiadające określonym cechom osobowości. Dostarczają one programistom zestawu narzędzi, dzięki którym mogą lepiej zarządzać zachowaniem swoich asystentów AI.
LLM zazwyczaj komunikują się z użytkownikami za pośrednictwem persony „Asystenta”, zaprojektowanej tak, aby być pomocnym, nieszkodliwym i uczciwym. Persony te mogą jednak ulegać nieoczekiwanym zmianom. Podczas wdrożenia osobowość modelu może się drastycznie zmieniać w zależności od komunikatów lub kontekstu konwersacji, jak to miało miejsce, gdy chatbot Bing firmy Microsoft groził użytkownikom , a Grok firmy xAI zaczął zachowywać się nieprzewidywalnie . Jak zauważają badacze w swoim artykule: „Chociaż te konkretne przykłady zyskały powszechną uwagę opinii publicznej, większość modeli językowych jest podatna na zmiany persony w kontekście”.
Procedury szkoleniowe mogą również powodować nieoczekiwane zmiany. Na przykład, dostrajanie modelu do wąskiego zadania, takiego jak generowanie niezabezpieczonego kodu, może prowadzić do szerszego „ rozbieżności w działaniu ”, wykraczającego poza pierwotne zadanie. Nawet dobrze przemyślane modyfikacje w szkoleniu mogą przynieść odwrotny skutek. W kwietniu 2025 roku modyfikacja procesu uczenia się przez wzmacnianie na podstawie informacji zwrotnej od człowieka (RLHF) nieumyślnie spowodowała, że GPT-4o OpenAI stał się nadmiernie pochlebczy , co doprowadziło do walidacji szkodliwych zachowań.
Skalowanie sztucznej inteligencji osiąga swoje granice
Limity mocy, rosnące koszty tokenów i opóźnienia w wnioskowaniu zmieniają oblicze sztucznej inteligencji w przedsiębiorstwach. Dołącz do naszego ekskluzywnego salonu i odkryj, jak najlepsze zespoły:
- Przekształcenie energii w przewagę strategiczną
- Projektowanie efektywnego wnioskowania w celu rzeczywistego zwiększenia przepustowości
- Odblokowanie konkurencyjnego zwrotu z inwestycji (ROI) dzięki zrównoważonym systemom AI
Zarezerwuj sobie miejsce i bądź na bieżąco : https://bit.ly/4mwGngO

Nowe badania opierają się na koncepcji, że cechy wysokiego poziomu, takie jak prawdomówność czy dyskrecja, są kodowane jako liniowe kierunki w „przestrzeni aktywacji” modelu (wewnętrznej, wielowymiarowej reprezentacji informacji zawartej w wagach modelu). Naukowcy usystematyzowali proces znajdowania tych kierunków, które nazywają „wektorami osobowości”. Według artykułu, ich metoda ekstrakcji wektorów osobowości jest zautomatyzowana i „może być zastosowana do dowolnej interesującej cechy osobowości, opierając się jedynie na opisie w języku naturalnym”.
Proces przebiega w zautomatyzowanym procesie. Zaczyna się od prostego opisu cechy, takiej jak „zły”. Następnie proces generuje pary kontrastujących ze sobą podpowiedzi systemowych (np. „Jesteś złą sztuczną inteligencją” kontra „Jesteś pomocną sztuczną inteligencją”) wraz z zestawem pytań ewaluacyjnych. Model generuje odpowiedzi zarówno na pozytywne, jak i negatywne podpowiedzi. Wektor osobowości jest następnie obliczany poprzez obliczenie różnicy średnich wewnętrznych aktywacji między odpowiedziami wykazującymi daną cechę a tymi, które jej nie wykazują. W ten sposób izoluje się konkretny kierunek w wagach modelu odpowiadający danej cesze osobowości.
W serii eksperymentów z modelami otwartymi, takimi jak Qwen 2.5-7B-Instruct i Llama-3.1-8B-Instruct , naukowcy zaprezentowali kilka praktycznych zastosowań wektorów osobowości.
Po pierwsze, poprzez projekcję wewnętrznego stanu modelu na wektor persony, programiści mogą monitorować i przewidywać jego zachowanie, zanim wygeneruje reakcję. W artykule stwierdzono: „Wykazujemy, że zarówno zamierzone, jak i niezamierzone zmiany persony wywołane dostrajaniem silnie korelują ze zmianami aktywacji wzdłuż odpowiadających im wektorów persony”. Pozwala to na wczesne wykrywanie i łagodzenie niepożądanych zmian w zachowaniu podczas dostrajania.
Wektory osobowości umożliwiają również bezpośrednią interwencję w celu ograniczenia niepożądanych zachowań w trakcie wnioskowania poprzez proces, który naukowcy nazywają „sterowaniem”. Jednym z podejść jest „sterowanie post-hoc”, w którym programiści odejmują wektor osobowości od aktywacji modelu podczas wnioskowania, aby złagodzić negatywną cechę. Naukowcy odkryli, że choć skuteczne, sterowanie post-hoc może czasami pogarszać wydajność modelu w innych zadaniach.
Bardziej nowatorską metodą jest „sterowanie prewencyjne”, w którym model jest proaktywnie nakierowywany na niepożądaną personę podczas dostrajania. To kontrintuicyjne podejście w istocie „uodparnia” model na uczenie się złej cechy z danych treningowych, niwelując presję związaną z dostrajaniem, a jednocześnie lepiej zachowując jego ogólne możliwości.

Kluczowym zastosowaniem dla przedsiębiorstw jest wykorzystanie wektorów person do selekcji danych przed ich dopracowaniem. Naukowcy opracowali metrykę zwaną „różnicą projekcji”, która mierzy, w jakim stopniu dany zestaw danych treningowych będzie przekazywał personę modelu w kierunku określonej cechy. Metryka ta jest wysoce predyktywna co do tego, jak zmieni się zachowanie modelu po treningu, umożliwiając programistom oznaczanie i filtrowanie problematycznych zestawów danych przed ich wykorzystaniem w treningu.
Dla firm, które dopracowują modele open source w oparciu o dane zastrzeżone lub pochodzące od stron trzecich (w tym dane generowane przez inne modele), wektory persony zapewniają bezpośredni sposób monitorowania i ograniczania ryzyka dziedziczenia ukrytych, niepożądanych cech. Możliwość proaktywnego przesiewania danych to potężne narzędzie dla programistów, umożliwiające identyfikację problematycznych próbek, które mogą nie być od razu widoczne jako szkodliwe.
Badania wykazały, że ta technika pozwala wykryć problemy, których nie wykrywają inne metody, zauważając: „To sugeruje, że metoda ta uwidacznia problematyczne próbki, które mogą być niewidoczne dla osób niepełnosprawnych intelektualnie”. Na przykład, ich metoda była w stanie wychwycić pewne przykłady zbiorów danych, które nie były ewidentnie problematyczne dla ludzkiego oka, a których sędzia LLM nie był w stanie oznaczyć.
W poście na blogu firma Anthropic zasugerowała, że wykorzysta tę technikę do udoskonalenia przyszłych generacji Claude'a. „Wektory osobowości dają nam pewną kontrolę nad tym, gdzie modele nabywają te osobowości, jak zmieniają się one w czasie i jak możemy je lepiej kontrolować” – piszą. Firma Anthropic opublikowała kod do obliczania wektorów osobowości, monitorowania i sterowania zachowaniem modeli oraz weryfikacji zestawów danych treningowych. Twórcy aplikacji AI mogą wykorzystać te narzędzia, aby przejść od zwykłego reagowania na niepożądane zachowania do proaktywnego projektowania modeli o bardziej stabilnej i przewidywalnej osobowości.
Jeśli chcesz zaimponować swojemu szefowi, VB Daily ma dla Ciebie rozwiązanie. Przedstawiamy Ci informacje z pierwszej ręki na temat tego, co firmy robią z generatywną sztuczną inteligencją, od zmian regulacyjnych po praktyczne wdrożenia, dzięki czemu możesz podzielić się swoimi spostrzeżeniami, aby zmaksymalizować zwrot z inwestycji (ROI).
Przeczytaj naszą Politykę prywatności
Dziękujemy za subskrypcję. Więcej newsletterów VB znajdziesz tutaj .
Wystąpił błąd.

venturebeat